這7個步驟是我主要的建模步驟,包含之前工作上跟 AWS 資料團隊學習時主要也是這些流程。
Step 0 : 定義問題,這個 step 0 的步驟要清楚定義想要用機器學習模型解決的問題是什麼。
Step 1 : 資料搜集,將可以解決這個問題的相關資料進行搜集,找出需要使用到的資料。
Step 2 : 資料前處理,如果資料來源很雜亂的話,這個部份會進行相關的整理、清理。不論是 mapping, join, 去除 NaN 資料。
Step 3 : 視覺化探勘資料,將資料前處理後的資料進行視覺化探勘,這個時候可以看看資料呈現的部份是否跟自己的預期一致。若有資料看起來異常,再回到 Step 2 進行處理。
Step 4 : 特徵工程,清洗完成的資料確認下來後,開始將資料進行特徵提取、組合,以利後續建模時進行使用。
Step 5 : 建模型,通常會先選擇幾個可以解決欲解決問題的模型來嘗試進行建模。
Step 6 : 模型評估,在前一個步驟完成後,我們得出選定的幾個模型的模型評分,這個時候綜合考量模型的成效來進行模型選型。
Step 7 : 模型佈署,模型選定了,現在可以準備上線啦,這時會選擇將模型進行自動化佈署,將整個流程進行自動化後跟想要串端的服務進行串接。